4. Test d’indépendance du c2

On considère un échantillon de 1000 électeurs que l’on interroge sur leur catégorie socioprofessionnelle et leur opinion politique (les données sont totalement imaginaires).

Les opinions politiques sont classées de la façon suivante :

1 : Extrême Droite (ED) 1

2 :  Droite (D): 2

3 :  Centre (C) : 3

 4 : Gauche (G) : 4

5 :  Extrême gauche (EG) : 5

 6 : Verts (V) : 6

 

 

 

ED

D

C

G

EG

V

 

 

1

2

3

4

5

6

Agriculteur

1

4

20

3

21

5

4

Ouvrier

2

27

46

23

53

18

41

Employé

3

46

92

38

108

41

54

Cadres moyens

4

10

57

18

60

17

30

Cadres supérieurs

5

6

27

5

27

12

8

Commerçants, artisans

6

2

12

6

9

3

4

Inactifs, retraités …

7

4

9

3

13

6

8

1) Calculer les répartitions des électeurs suivant (i) la catégorie socioprofession­nelle (ii) l’opinion politique.

Il s’agit ici des répartitions marginales.

 

proportions

pourcentages

Agriculteur

0.057

5.7

Ouvrier

0.208

20.8

Employé

0.379

37.9

Cadres moyens

0.192

19.2

Cadres supérieurs

0.085

8.5

Commerçants, artisans

0.036

3.6

Inactifs, retraités …

0.043

4.3

 

1

100%

 

ED

D

C

G

EG

V

 

0.099

0.263

0.096

0.291

0.102

0.149

1

9.9

26.3

9.6

29.1

10.2

14.9

100%

2) On demande dans cette question la répartition (i) des électeurs de gauche suivant la catégorie socioprofes­sionnelle (ii) des ouvriers suivant leur opinion politique. Nous avons calculées toutes les « répartitions conditionnelles » (en rouge, les répartitions demandées).

(i) répartition des électeurs suivant leur CSP en fonction de leur opinion politique :

 

ED

D

C

G

EG

V

marge

Agriculteur

0.040

0.076

0.031

0.072

0.049

0.027

0.057

Ouvrier

0.273

0.175

0.240

0.182

0.176

0.275

0.208

Employé

0.465

0.350

0.396

0.371

0.402

0.362

0.379

Cadres moyens

0.101

0.217

0.188

0.206

0.167

0.201

0.192

Cadres supérieurs

0.061

0.103

0.052

0.093

0.118

0.054

0.085

Commerçants, artisans

0.020

0.046

0.063

0.031

0.029

0.027

0.036

Inactifs, retraités …

0.040

0.034

0.031

0.045

0.059

0.054

0.043

 

1

1

1

1

1

1

1

(ii) répartition des électeurs suivant leur opinion politique en fonction de leur CSP :

 

ED

D

C

G

EG

V

 

Agriculteur

0.070

0.351

0.053

0.368

0.088

0.070

1

Ouvrier

0.130

0.221

0.111

0.255

0.087

0.197

1

Employé

0.121

0.243

0.100

0.285

0.108

0.142

1

Cadres moyens

0.052

0.297

0.094

0.313

0.089

0.156

1

Cadres supérieurs

0.071

0.318

0.059

0.318

0.141

0.094

1

Commerçants, artisans

0.056

0.333

0.167

0.250

0.083

0.111

1

Inactifs, retraités …

0.093

0.209

0.070

0.302

0.140

0.186

1

marge

0.099

0.263

0.096

0.291

0.102

0.149

1

3) Les représentations graphiques demandées sont des diagrammes puisqu’il s’agit de variables qualitatives. On peut les obtenir facilement par Excel.

4) La modalité j = 2 correspond à l’opinion politique « Droite ». Les termes pji représentent les proportions d’électeurs de droite dans chaque CSP i. On a :

p21

p22

p23

p24

p25

p26

p27

0.351

0.221

0.243

0.297

0.318

0.333

0.209

p1.

p2.

p3.

p1.

p5.

p6.

p7.

0.057

0.208

0.379

0.192

0.085

0.036

0.043

p1. x p21

p2. x p22

p3. x p23

p4. x p24

p5. x p25

p6. x p26

p7. x p27

0.020

0.046

0.092

0.057

0.027

0.012

0.009

La somme des termes de la dernière ligne est égale à :

7

 

 

 

S

pi. p2i

=

0.263

i = 1

 

 

 

On obtient le terme marginal p.2, c’est-à-dire la proportion d’électeurs de droite dans la population interrogée. On a dans le cas général :

pji = pi,j / pi.

pi. pji = pi,j

On en déduit :

7

 

 

7

 

 

S

pi. pji

=

S

pi,j

= p.j

i = 1

 

 

i = 1

 

 

5) On donne ci-dessous le tableau complet des effectifs théoriques :

 

1

2

3

4

5

6

1

5.64

14.99

5.47

16.59

5.81

8.49

2

20.59

54.70

19.97

60.53

21.22

30.99

3

37.52

99.68

36.38

110.29

38.66

56.47

4

19.01

50.50

18.43

55.87

19.58

28.61

5

8.42

22.35

8.16

24.74

8.67

12.67

6

3.56

9.47

3.46

10.48

3.67

5.36

7

4.26

11.31

4.13

12.51

4.39

6.41

6) On donne ci-dessous le tableau complet des termes xi,j2 = (ni,j – n pi. p.j)2/(n pi.p.j) :

 

1

2

3

4

5

6

1

0.478

1.674

1.117

1.174

0.114

2.377

2

1.994

1.385

0.460

0.936

0.487

3.232

3

1.916

0.591

0.072

0.048

0.142

0.108

4

4.269

0.838

0.010

0.305

0.341

0.068

5

0.693

0.965

1.224

0.207

1.279

1.718

6

0.686

0.677

1.873

0.208

0.123

0.347

7

0.016

0.471

0.308

0.019

0.594

0.396

7) On se reportera au cours pour la formule. Le degré de liberté est égal au produit (nombre de lignes –1)(nombre de colonnes –1). On trouve :

n = 30

L’hypothèse nulle est l’indépendance de l’opinion politique et de la catégorie socioprofessionnelle. La valeur x2 est somme de toutes les valeurs du tableau précédent. On trouve :

x2 = 35.941

La table du c2 donne, pour un degré de liberté égal à 30 et un risque de première espèce a = 0.05, la valeur limite xa2  :

xa2 =   43.8

 

La valeur observée x2, qui mesure l’écart entre les probabilités théoriques s’il y a indépendance et les proportions observées,  n’est donc pas spécialement grande. Elle ne contredit pas l’indépendance et par suite, on accepte l’indépendance des deux critères.

Le logiciel donne comme résultat la probabilité critique de la valeur observée :

P(X2> 35.941) = 0.2097

Cette probabilité critique est supérieure au risque de première espèce choisi : on accepte donc l’hypothèse d’indépendance.

La seule chose que l’on puisse affirmer, c’est que les données observées ne sont pas en contradiction avec l’hypothèse d’indépendance. Cela ne signifie pas que cette dernière soit vraie : l’erreur de seconde espèce, qui consiste à accepter l’hypothèse nulle alors qu’elle est fausse, est possible. On ne peut pas en calculer la probabilité dans le cas du test du c2.

8) Les catégories socioprofessionnelles et les opinions politiques qui interviennent le plus dans la liaison mise en évidence dans le tableau de données sont celles qui contribuent le plus à la valeur observée x2. Pour connaître la nature de la liaison, il faut comparer les effectifs théoriques aux effectifs observés.

·  4 x 1 : cadres moyens et extrême droite. L’effectif théorique est largement supérieur à l’effectif observé, ce qui signifie que les cadres moyens votent pour l’extrême droite plus rarement que les autres.

·  1 x 6 : agriculteurs et verts. Les agriculteurs votent rarement pour les verts.

·  2 x 6 : ouvriers et verts. Les ouvriers votent souvent pour les verts.

Ces conclusions ne concernent que les données observées. L’hypothèse d’indépendance ayant été acceptée, on ne peut les généraliser à la population toute entière.